데이터 분석의 기본 - 검정과 모수 추정

데이터 분석의 첫번째 가정은

분석하고자 하는 데이터가 어떤 확률 변수(random variable)로부터 실현(realized)된 표본(sample)이다.

라는 가정이다. 이 말은 우리가 정말 관심이 있는 것이 지금 손에 가지고 있는 데이터 즉, 하나의 실현체(reailization)에 불과한 표본이 아니라 그 뒤에서 이 데이터를 만들어 내고 있는 확률 변수라는 뜻이다. 데이터는 이 확률 변수를 알아내기 위한 일련의 참고 자료일 뿐이다.

확률 변수는 분포 모형(distribution model)과 모수(parameter)를 가진다. 따라서 확률 변수를 알아낸다는 것은 다음과 같은 질문에 답을 한다는 것이다.

  1. 해당 데이터가 특정한 분포 모형, 예를 들면 가우시안 정규 분포로부터 생성된 것인가?
  2. 만약 그렇다면 그 정규 분포의 기댓값 모수 $\mu$ 와 분산 $\sigma^2$이 특정한 값을 가지고 있는가? 예를 들면 $\mu = 0$ 인가 아닌가?
  3. 정규 분포의 기댓값 모수 $\mu$가 0이 아니라면 구체적으로 어떤 값을 가질 것인가?

이러한 질문에 답을 하는 행위을 검정(test) 또는 모수 추정(parameterestimation)이라고 한다. 모수 추정은 간단히 추정(estimation)이라고 하기도 한다.

첫번째 질문은 확률 변수의 분포에 대한 가설(hypothesis)이 맞는지 틀리는지를 확인하는 확률 변수의 분포 검정(distribution test)라고 한다. 이 질문은 확률 변수의 분포가 정규 분포(normal distribution)이라는 것을 가설로 놓고 있다. 이러한 가설을 검정하는 것을 특별히 정규성 검정(normality test)이라고 하며 데이터 분석에서 가장 많이 사용되는 검정의 하나이다.

두번째 질문은 확률 변수의 분포가 어떤 모형을 따르는지는 이미 정해져 있는 상태에서 확률 밀도 함수(pdf)의 계수(coefficient) 즉, 모수(parameter)가 특정한 값을 가지는지 혹은 특정한 값과 비교하여 큰지 작은지를 확인하는 과정이다. 예를 들어 정규 분포의 기댓값 모수가 0인지 아닌지 확인하고 싶다면 "정규 분포의 기댓값 모수가 0이다."라는 가설을 증명하고 싶은 것이다. 이러한 가설을 검정하는 것을 모수 검정(parameter test)이라고 한다.

마지막 질문은 모수가 실제로 어떤 숫자를 가질 확률이 가장 높은지를 알아내는 작업으로 이러한 과정을 모수 추정(parameter estimation) 또는 추정(estimation)이라고 한다. 모수 추정 방법은 어려가지가 있다. MSE(Maximum Squred Error) 방법, MLE(Maximum Likelihood Estimation) 방법 등은 가장 확률이 높은 숫자 하나를 결정하는 방법의 하나이며 베이지안 추정법(Bayesian Estimation)은 가능한 모든 값에 대해 이 값들이 진짜 모수가 될 확률을 모두 계산하여 분포로 표시하는 방법이다.